其他
实时数据湖 Flink Hudi 实践探索
分享嘉宾:陈玉兆 阿里云 技术专家
编辑整理:徐纯根 天翼云科技公司
出品平台:DataFunTalk
Apache Hudi 背景介绍 Flink Hudi 设计 Hudi 应用场景 Hudi RoadMap
01
Apache Hudi背景介绍
开放性
丰富的事务支持
基于ACID语义的增量处理
智能化调度
图三:Hudi小文件策略
图四:Hudi 全量和增量读取策略
图五:DB数据入湖
图六:近实时OLAP
图七:近实时ETL
图八:VVP作业图九:VVP DLF
图九:Hudi RoadMap
今天的分享就到这里,谢谢大家。
在文末分享、点赞、在看,给个3连击呗~
01/分享嘉宾
陈玉兆
阿里云 云计算平台
技术专家
西安电子科技大学硕士。
2015 ~2018 美团:负责美团实时计算平台从 0 到 1 的搭建,维护 strom 集群。
2018 ~2020 阿里:负责计算平台 Blink SQL 引擎的开发,由于主导的功能和 Calcite 社区互动较多,在 19 年成为 Apache Calcite PMC。
2020 ~ 2022 阿里:主导 Apache Hudi 的开发,推广和宣传,尤其是 streaming 计算在 Hudi 上的场景探索 (streaming datalake、增量 ETL 等),维护了一个 3000+ 人的 Hudi 钉群,担任 0.10.0 版本的 release manager 同时成为 Hudi PMC。
03/报名看直播 免费领PPT
04/关于我们
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝。
🧐 分享、点赞、在看,给个3连击呗!👇